作者:厂商供稿 发表时间:2019-08-22 21:40:00
席宁:欢迎各位来到“前沿趋势与探索”主题论坛,我们将会进行非常精彩的交流,讨论机器人未来的发展方向,重点是人工智能、脑科学和机器人的结合。下面首先有请德国慕尼黑工业大学机器人研究所所长Sami Haddadin带来主题报告,题目是“温柔的轻型机器人”。
Sami Haddadin:
首先感谢主办方邀请我来到北京,参加这样出色的大会,我感到非常荣幸,这对于我们作为研究人员来说也是重要的体验,可以让我们了解中国的情况,看到国际社会上未来的方向是怎样的。今天我的报告主要是讲“温柔的轻型机器人”,也就是机器人可以安全智能地与人类环境进行交互。这是一种新式的工具,未来将会成为人类创造的最主要的工具之一。过去我们创造出了电脑,未来能够提升人类的能力,比如从人工智能到最后会有增强智能,也就是提高人类的能力,让人类的能力比以前更强。现在机器人正在实现与人工智能的结合,今后可能会带来未来的发展方向。
简单回顾一下最近人工智能发展的进展,比如能够创造机器程序,甚至打败一些复杂的比赛大师,比如围棋大师。这是Google Deep Mind深度思维系统,2016年在一场比赛当中战胜了李世石。大家可能会问,如果机器能够打败、胜过人类,可以进行这种运算,左边这个人到底是谁呢?我们都知道这个人不是机器人,但是机器人接下来会发展到哪一步?记得我们在上高中的时候看到过同样类似的图片,右手的是深蓝电脑,左边是俄罗斯象棋大师。这是一张1997年的照片,我们同样想知道右边这个人到底是谁?
我们来做这样一个对比,二十年内科技有了巨大的进步,也就是运算在虚拟世界,某些人类设计出来的棋局招术和我们在实体社会当中创造出来的交互是非常不同的。大家可以看一看儿童的基本感官运动能力,这是四岁的时候在破坏客厅,我们如何让机器人像人类一样有类似的学习能力?可以给机器人一个鼓励机制,如果能够拿着钥匙到门口,十次尝试以内就打开门,然后就不用打扫客厅了,这样尝试了六七次以后真的成功了。
看一看早期的一些先驱有着机器人的数据基础,而且能够应对一些没有预测到的事件,可以做没有编程的工作,但是进入实体环境之中,一般来说环境不会是重复性的,因此非常有意思的是2015年的时候这个机器人和我四岁的女儿想做同样的事情,最好的机器人团队都没有做好,但是真实世界当中手的操作是实体智能,不仅仅是运算能力。因此非常重要的是有两种不同的任务复杂程度,可以说有生物的原则,如果看一看运动和操作的概念,这是非常简单的,即使是单细胞有机体,可以进行无人驾驶的自主运动,不会出现碰撞。
手是人类几十亿年传下来的一个非常棒的工具,只有大猩猩或者人类才能使用这种工具进行非常复杂的任务,所以我们是在创造工具提升人类的能力,也提升人类的实际能力,几十年来一直有运动和操作的概念。非常有意思的是,手和其它概念很难匹敌,比如认知规划能力和玩围棋的能力。
人工智能和机器人学的源头是什么?欧洲文艺复兴的时候有一个天才达芬奇,可能是机器人和人工智能的祖师爷了,因为达芬奇知道人类的解剖学结构是某种理论,很多科学人员仍然进行研究,能够创造出一些人类的运动,也就是了解机械学、机构学和人类运动的机制,但还是有复杂的情况。德国汉诺威的专家设计出了一个计算设备,能够做出四项基本运算,发明了二进制代码,因此这是一个非常重要的发明,可以理解运算是通过机械触发,而且是一种具象的表现,了解实体智能和运算智能,所以某种角度来说情绪和机器的关系已经得到了了解。
机器是人类的延伸,德国学者发明这个计算器不是想占用自己的时间,而是把自己宝贵的时间留下来做别的事情,让计算机腾出在实验室做工作的时间,所以机器是人类智能的延伸,如果我们设计出合适的机器人的话。过去的五六十年当中机器人领域有很多的里程碑,刚开始有第一个工业机器人的发明,日本发明了一个人形机器人,后来二三十年有手术机器人发明出来,之前的报告当中也有谈到,晚些时候还会有人谈到无人驾驶车辆,最近一段时间我们基本上是在深度学习和机器学习当中运算和算法的进步。
昨天有些嘉宾播放的视频当中显示出了一些问题,比如焊接和涂装主要使用的是机器人,但是在做装配的时候机器人的价格还是非常昂贵的,需要好几千欧元一个,中小企业无法承担这种费用,只有大型汽车行业或者工厂才能负担得起。这些系统的设计是通过十五年的研发才能进行生产,因此整个研发投入也是有上亿美元,非常有意思的是,现在我们没有好几百万台机器人销售出来,每年销售的工业机器人是30万台,应用场景各式各样,所以可以说这些只是少数主要的工业企业使用的技术,而且才能负担得起,五六十年代的时候有这种大型计算机,但是还没有出现个人计算机和台式机等等。
机器人之前其实是没有触觉和视觉进行实体交互的,比如没法把钥匙插进锁里,也就是说生产装配过程当中没法使用机器人,因为需要触觉,如果要把螺丝在两三分钟拧好,不久之前只有人类才能做,如果是大规模生产的话就需要很多外包工作,比如电子生产领域以及其它新兴生产行业,这种非常微妙的触觉只能由人来做,每个人都有自己复杂的手系统。未来十年我们的解决方案不是是否使用自动化机器人,而是由人类结合机器,人类能力得到增强,创造更好的就业机会,带来的质量更高,成本也会变得更低。
八十年代的时候有些基本观念就是如何让机器人有触觉,能够进行近距离的控制,比如人类如何使用触觉才能非常微妙、非常智能地与世界交互,操作、抓握和理解。我们当时提出这个想法是希望设计一个可以学习的机器人,价格必须廉价,同时也要走向机器人演化的下一个阶段。我们的目标是希望支持工作场景的人士,能够让机器人得到训练使用这种技术,但是也会创造新的就业,能够取代人类一些烦琐的工作,这样人类才能去做最适合我们的工作。
当然,安全是一个先行因素,所以我们一定要关注安全这个问题,比如一些法律规定,机器是绝对不能伤害人的,我们的研究也是关于开发相关的技术,能够让机器人非常敏感,同时找到最安全的人机互动的方式。这是研究电脑科学的专家,如果使用Google的话,搜索Computer Geek就是这个人,这是一个八十年代就可以使用个人电脑的人,而且使用非常娴熟。1936年的时候有一部《摩登时代》电影,可以显示机器怎样帮助人,让人使用更加方便的工具,发明家想要发明一种机器,这种机器能够自动化提供工人的午餐,做到尽量精确和高效。这样至少呈现了一个概念,就是我们怎样开发一种技术能够让人们方便地使用。
大家可以看到这是一种很了不起的机器,可以喂人吃饭,还能给人擦嘴。个人其实没有去过门萨,只是从其它渠道学到了相关理论,最传统的自动化在五十年代的时候机器人就开始使用了,应该是达芬奇在十七世纪提出的。这部电影当中机器出现了自己的问题,所以机器不是完全安全的,最后工厂主说这个机器并不实用,越是复杂越是应该考虑使用者如何使用,所以八十年代的时候大家就开始考虑这些东西。APPLE的电脑系统使用性很高,并且很容易被理解。
人们这个目标追寻了十年,我们也资助了一家慕尼黑的公司,也是做机器学习的,十年之后非常成功,最后生产的是一套机器系统,所有人都可以使用,即使是学校也可以使用这些系统更好地培养自己的学习。可能外部看起来很像一个机器人,但是内部有自己了不起的特性。重要的一点是价格,如何才能更便宜,这样所有的中小型企业都可以买得起这件设备。我们想作出更多的突破,设置出这样的系统。
首先是像教会小孩一样教会机器做最简单的工作,系统应该是安全的,即使手里拿着一个钉子去刺气球都应该刺不破才对,这是中央神经系统,应该有非常扎实的基础,能够使用非常安全、非常本能的方式保护人类。我们需要进行很好的合规,也就是符合规定的动作,就像人们遵循的方式一样,应该完全遵循规则行为。第一级别的AI可以解决一些简单的东西,但是不能解决没有见过的东西,这种设备是可以随着一个平面前进,解决一些没有见过的情况,接触表面的时候进行测量,像人一样作出自己的反应、感测和计算。
我们必须控制这些设备,整个过程才能顺畅进行。这种机器人可以独立于软件和机器人的环境,控制自己的周边,7.9牛顿的几块巧克力放在一起,不管环境怎样都可以进行力和角度的调节,进行非常高效的测试。最后就是需要去除人的因素,摸到讲台我就知道自己站在讲台上面,机器能不能在一个顺畅的环境当中工作,人需要两三岁之后才能控制自己的身体,设备能不能和我们期待的方式一样,我觉得这也是需要去研究的。
我们看一看安全的问题,很重要的就是一定要控制动作,这是人想在空间当中移动,有的时候会碰到线,系统低级的AI可以做到任何工业机器人,就是低于0.09毫米的情况都可以进行高速运动,达到最为精确的标准。0.01毫米的时候还是可以进行精确的操作,也就是一个互动性的精确机器操作,也是过去几年做出的研究。
所有的这些东西都是人需要做的工作,非常无聊烦琐的安装电子元件的工作,这些工作还是要做的,但是我们想让人去做其它有创造性的工作。很有意思的是还有很多事情可以研究,比如抛光或者其它工作,这项工作人已经做了二三十年,但还是很无聊,我们要让机器有一种敏感高效安全的方式来做这些工作。对机器人的控制也很重要,人类如果没有受到任何训练的话,能不能胜任这些机器人的工作?就像一个小公司来自瑞士,只有三四个人,他们想告诉我们一个视频,能够多快地做这种PR工作,使用机器人一天之内就可以做到这样的工作,后面我们可以看一看现实当中推进到了什么程度。
测试虽然失败了,但是人们觉得很有意思。我们到了西门子在慕尼黑的公司,人和机器人放在一起,所以没有必要把这些工作外包,这是一个生产工艺,人和机器人可以顺畅合作,主要是做投资就可以在工厂当中创造更多就业刚岗位,规模生产也不用停止,无论从哪个角度都可以说这项工作还是卓有成效,可以看到很多公司都在和我们合作。我们都同意技术和机器人等等,这是一个非常大的进步,但是我们必须往前再走一步,我们的发明在2018年被杂志报道了,可以说是去年最重要的发明,十五年前人们对机器人的恐惧比现在更大,但是现在机器人确实帮助我们做了很多工作,同时也可以创造未来更好的工作岗位。
这是默克尔总理在访问我们,可以在现场进行一些机械舍赫,我们正在进入欧洲和美国市场,这些市场发展非常强劲,如果大家更感兴趣的话可以来到中国,上海的很多中国公司都非常感兴趣,我们也很愿意和中国公司合作,所以这项科技肯定会对中国造成很大影响。
下一步就是机器人能不能很快地进行学习呢?几年前我和几个同事在德国工作,当时希望打败儿童的学习能力,所以能够做这种操作的机器人是出现了,但是还没有接近人类的智能水平。我的女儿尝试了七八次以后就可以把钥匙插进去,我们能不能在线进行机器学习或者人工智能作业?这里有一个古老的机器人方式,就是设计插孔的问题,采用了强化学习的算法,也使用了人工的介入,5分钟就已经完成,胜过了成年人,而且计算机科学家和工程师以及右下角也一个机械工程是,动作也非常优雅,但却没有其。
现在我们可以学习感官运动智能,但能不能把人工智能变成通用智能?机器人就像一岁小孩一样把设备放进孔里的做法,而且能够把自己学到的知识传递到下一个机器人,也让下一个机器人完成这样的任务,这项知识需要五到十分钟,要是传递给下一个机器人,下一个机器人可以不经过任何学习就把钥匙插到电视孔里面,而且这种钥匙孔是机器人从来没有见到过的。
席宁:下面有请法国国家信息与自动化所研究部主任Christian Laugier带来主题报告,题目是“人工智能对自主驾驶的影响”。
Christian Laugier:
很显然,现在机器人产业有着许多不同的环境,也有许多大型企业,但政府越来越支持这一领域,为什么呢?可能是因为未来的交通会发生巨大变化,预测的市场达到5500亿欧元,但是从法律监管的角度来说问题不是非常清楚,即使政府研究人员在做这方面的工作,现在主要的做法就是多做一些实验和尝试然后拿出报告,这样才能更好地了解这项技术的成熟度。但这还是不够的,我们有比较现实的模拟设备和工具要开发出来,希望能够有更好的对这种技术的评估。
当前我们可以看到很多不同类型的车辆,特斯拉开发出了人工智能自主驾驶的车辆,有着二级的自治度,也是一个可以自主驾驶的系统,而且是被客户验证过的,因此有很多不同的实验,包括沃尔沃、Android去年做了一年的80公里尝试,也是开了很多公里和英里,有的时候有交通事故,有的时候没有事故。
现在有了机器人出租车的理念,也是美国发展起来的,包括优步和Utanomi。即使有好几百万的自主驾驶公里,比如特斯拉、Google和微步,不过过去几年还是出现了交通事故,安全仍然是无法得到保障的,这是在未来积蓄解决的问题。
大家可以看到这张事故现场的照片,我就不再提高清晰度了,最近还有另外一个事故,参与人员被优步自治度达到2的车辆撞死了,很多传感器都出现了问题,包括蓝牙和摄像头,没有监测到当时的路人,也没有很快地作出反应,反应的时候已经太晚了。
无人驾驶车辆面临着两大挑战:首先要有文件的、自我及时的,可以内嵌的感知。特斯拉是在高速不断运转,没有检测到左边的那个人,但是人类驾驶员就必须迅速作出反应避免撞车。其次要有可理解的驾驶决定,因为无人驾驶车辆要与人类司机共享道路,人类行为是很难预测的,因为有很多不同的因素,比如人的感情和情绪等等。人类驾驶员的任何决策是不确定性的,即使对人类来说也是如此,因此我们才会出现事故。无人驾驶汽车需要有思维的理念和理解。
自主驾驶车辆和人类驾驶员都要有可理解的行为和决策,那么我们如何解决感知和决策这两大问题?要有现场理解导航信息,这里使用的是感知的信息,但是有一点是关注度比较少的,就是如何应对一些不可预知的情况。人类大脑当中使用的是很多不同的大脑区域,眼睛可以看到左边运动的物体,可以通过条件反射进行避免,需要实时的处理和反应,而且需要不完整度和不确定性条件下的应对,使用概率性的解决方案和办法,包括传感器的模拟、硬件和软件的集成,内嵌的局限性问题得到解决,考虑道路交通过程当中要有人类的参与,就是混合、无人和有人驾驶,这样才能有交互行为和社会规则。
我们来看内嵌的感知,车辆不断监测动态环境,针对周围环境的制图检测,希望任何时候都能够安全地描述周边的情况避免撞车,我们提出协调未来时序关系,也就是作出一些预测。开发这些模型的时候要考虑到未来的情况做出预判,提高我们的稳定性,使用贝耶斯感应融合,周围环境以及贝耶斯信息进行回归分析。
贝耶斯感应是基本的概念,图中有一辆绿色的车和一辆黑色的车,绿色的车能够进行探测和制图工作,判断速度的概率,同时速度也是有自己的流,基本概念就是对动态、静态和自由的情况进行分析,这样对行人、黑车和空间进行分析和判断,之后要看哪个是优先哪个是次优先,然后在系统当中进行避让,最后一点就是模型内嵌一个预测的模块。
图中每个网格都代表着一个速度的概率,同时进行过滤,看一看系统是否需要25赫兹的更新,汽车的前摄像头有一个启动的按钮,还有一个过滤窗,也就是提取出来的信息。这部视频是在市中心拍的,可以看到这些模型,制图和过滤出来的信息是与感测器感应的东西相关。机器人不断进行探寻,并且与现有的信息进行关联,然后给出最佳的行驶路径。
现在我们正在研究这些机器,还有一些更新技术的细节,这里就不说了,我们正在进行这些技术商用整合,现在是放到摆渡巴士里面,安装之后几天就可以使用。我们有些相关的自由领域、判断出来的速度以及碰撞风险概率,我们是想避免即将发生的和未来可能发生的碰撞,在这种情况下是人涉及在其中的,我们要去解决这些问题,并且基于预测以及我们判断出来的优先级进行决策和防碰撞的判断,通过贝耶斯的预测分析和风险分析结合起来,也会涉及到不确定性和周围信息知识,清除概率碰撞风险,给出的就是T+若干秒,同时也会让驾驶决策考虑到、预测到、观察到周围行人可能的动作,比如汽车、自行车和行人,再加上社会和交通的规则等等,也就是进行风险的分析。
这些是一些不知道是什么原因的风险,我们也需要考虑,还有长期碰撞的风险,时间限制大于3秒,需要考虑语义和上下文。解决分类预期外的风险,左边和右边就是这样的例子,突然发生这样的事情怎么解决?我们需要进行预测和预判Anticipation,我们开发的这种概念,自动汽车是白色的车,因为被黑色的车挡住了所以看不到这辆车,但是根据这种经验和我们设计的方式停下来了。我们需要侦测即将发生的潜在碰撞,然后进行风险情况的分析,这是基于空间和时间两个领域,然后生成相关信息进行碰撞和操作,摄像头的视角可以判断出是人进行紧急停车,视频上可以看到不同的碰撞时间,黄色的是具体高度,一个是2秒,一个是2秒以上。
图中进行的是预冲击测试,可以看到一个假人在移动,然后撞上了这个假人,长期碰撞的风险需要从客体的角度语义分析和判断,重要的一点是要有一些概念,就是行为和方向。我们需要学习和预测人的行为,根据从传感器获得的信息判断。我们需要了解相关的情况,并且对交通流量进行判断和社会因素的考量,以及所有交通人员的行为分析。
我们是在2010年申请这项技术的专利,主要包括三个主要元素:行为的考量就是如何对行为进行学习和建模,如何预测行为,根据我们从传感器获得的信息。要把路上的交通情况进行考量,然后对行为进行判断。再就是对碰撞风险进行评估,我们用的是一个多元的评估系统。视频是我们在高速路上和丰田一起拍的,也是不同的碰撞风险分析,可以看到各种各样的车道,这里可以获得不同的车辆碰撞风险,速度是每小时80-90公里。
这里的概念是进行意图的预判,除了车辆之外还有行人和自行车,怎么预测这个人或者那个人要干什么?我们可以有些期待,就是这个人下一步可能会干什么,根据自己的行为以及目前的路况,进行车辆到底是要停还是要走等等分析,因为路上会有人、车和各种各样的情况。大家可以看到这里是被挡住的,我们看不到右边是什么东西,但是系统测试出了一辆车,判断出了很高的碰撞风险,因此给出了一个警告,所以我们就踩了刹车。
怎样通过机器学习改善我们的模型?专业层面我们可以和丰田一起开发语义分析,概念是使用贝耶斯回归感知深度学习,并且进行语义高层角度的分析,然后把语义嵌入人、车、建筑和道路,之后进行不同级别的分类。我们有自己的分析方法,也是和丰田公司一起申请专利。摄像头的信息应该是来自贝耶斯感知分析,不同类型的感知器包括雷达、摄像头以及其它的感知系统,我们开发出了一系列语义系统。
未来信息处理会有两个深度学习过程:一个是语义深度学习,通过我们的数据集进行训练。另一个是语义集合,我们使用非强化的网络了解图像的传输,描述周边空间的情况,可以了解车辆周边不同物体的高度。现在我们做的这些实验都是有图像的,也有前端的视觉,我们获得了对这些范围图像的了解,然后再用它来做预测,大家可以看到一些我们已经做的研究,如果我们只是做动态检测的话就无法做好检测,也无法做物体的分类。
最后一部分是通过人工智能进行改善,无人驾驶系统要学习驾驶员的做法和表现,我们记录了高速公路很多公里的车辆驾驶,然后通过函数来训练系统。大家可以看到我们使用人类行为来做预测,同时拿出像人一样的车辆规划,这种规划也可以是在车辆上面进行调整。视频上面显示的是前端摄像头的视角,后面也有后端摄像头的视角。白色是我们的车辆,黄色是其它的车辆,红色是做出的预测。
可以看到车辆正在缓慢行驶,无法超车,保持着安全车距,避免变道,接下来就需要超车变道。大家可以看到左边已经清空,车辆就决定变道超车。
如何自主地在交通环境下开车?我们有些现实当中人的开车模式,利用长期评估的预测,比如超过10秒或者更长的时间,这些信息用来找到最合适的避免撞车的方法,短期和中期使用模型,同时也使用目标动力学的信息。我们做的是基于模型的变道预测,后面有一个红色的轴,预测出要向右变道,就是在前车变道的情况下保持安全距离,预测前车的变道方向,避免撞车,而且是很快地做出预测。
所有这些技术已经内嵌到了车辆系统之中,受到保护的实验区域可以做出测试,包括撞车测试是在第三阶段和第四阶段来做测试,同时也在开放式的高速公路上真实的驾驶场景来做测试自主驾驶技术。我们要开发更多的感知、决策和控制集成技术放在应用场景当中,而且这些车辆每小时要跑50多公里的速度,包括无人驾驶大巴或者公交车,这是一个很大的车辆,动力学是非常重要的,速度能够达到70-80公里/小时,普通车辆的车速大概也是70公里/小时,而且有控制器,深度学习部分之前已经讲到了。
最后再给大家看一段小视频,这是2018年我们做的展示,当中的信息可以在网上找到。
席宁:接下来进入高峰对话环节,题目是“面对机器人行业的未来:我们从业者正在做什么准备”。有请德国慕尼黑工业大学教授Alois C.Knoll作为主持,同时有请加拿大阿尔伯塔大学教授张宏,日本千叶工业大学教授、IEEE机器人与自动化学会副主席王志东,以色列本古里安大学生物医学机器人实验室主任Ilana Nisky,荷兰代尔夫特理工大学副教授Jens Kober。
Alois C.Knoll:
相信面对机器人行业的未来,我们需要的是年轻人。有些人刚刚开启自己的职业生涯,有些人可能走得稍微远一点,但我们还是有非常好的想法。下面请各位自我介绍一下,然后讲一讲你们认为未来的趋势是怎样的。我们会议的主题是简单、精巧,现在也要把智能加入其中,因为这是未来的大趋势。
首先从我自己开始,我是人类大脑项目的主管之一,这是欧盟通讯领域的项目,如果我们想要建造模拟大脑的系统,我们就要更好地了解大脑。这是一个人类的大脑项目,项目非常成功,处在非常好的轨道。我们把神经科学实现了虚拟化,也就是说把一切都移到了电脑上建模,然后做出基于模型的模拟。这是一个老鼠,身体和大脑都已经被建模了,未来可以做更复杂的任务,然后把它和真正的老鼠行为作出对比,互相调整的话就会更加接近。
我们提供神经科学平台,可以在这里进行模拟,不管是物理还是接触,只要是模拟需要的我们都可以在平台进行使用,这个平台本身是很复杂的系统,看起来并不小,但是非常智能。大家如果有机会的话可以来到我们的实验室,看一看过去六七年的成果。我们也做实体机器人,因为我们想把实体机器人和虚拟机器人进行统一,所以我们也会建立真实的系统。比如这个Robot Boy,非常像人的骨骼结构,同时也可以用一个模拟的大脑进行控制。
张宏:
非常高兴来到这里参加讨论,我做机器人也有很多年了,可能是在这里岁数最大的人之一,做了三十五年机器人,也有做过不同的领域。最近的十五年当中我都是做自动导航的,尤其是我感兴趣的领域,就是用电脑视觉导航自动驾驶汽车。视觉导航到处都有,上一位专家也有说过,如果看一看特斯拉的模型也是用视觉导航,视觉可以给我们提供各种各样的信息,所以很容易联想到机器人,加上视觉能力的话就可以进行自我导航运动。
我们的视觉系统有很高的适应性,可以去除一些不相关的东西,所以要让机器人能够像人的眼睛,能够解决这些方面的问题。早上我们看到的东西和下午我们看到的东西光线和条件都不一样,但我们仍然认为那是同一个东西,机器人能不能有这样的能力?另外一个系统和刚才的自动驾驶汽车很像,这在全球都很流行,而在中国也是一样。自动驾驶汽车面临的问题还是安全,大家不可能在解决安全性问题之前就采用自动驾驶汽车技术,所以要让它比人的驾驶更安全,后面就要研究它的逻辑,所以我觉得安全的潜力取决于分享汽车的感受,以及基础设施、道路设施和汽车等等,这样可以增加感知的信息、汽车的信息,从而提高安全性。
王志东:
感谢邀请我参加这场讨论,包括市场上机器人的协作,或者生态系统的合作,也有一个非常大的合作团队,其中也有协调系统,自动驾驶系统当中也有这样的机制。另外一个研究项目是最近我做了很多人机协作合作的项目,这个领域是关于机器人如何从工厂走出来,走到我们的房间和家里来帮助我们。早期的人机合作机器需要去判断人的情感和意图,同时还有一些控制体系需要开发,也有很大的不确定性,机器不太能够确定人的情感和意图,因为每个人的行为不一样,表达自己意图的方法也不一样,如何让机器理解人的意图?这也是关于如何取得这些知识改造更好的系统所做的挑战。
Ilana Nisky:
我研究的领域不只是机器人,还有神经科学。刚才您说的很对,越小越聪明,更小更聪明,也要以人为本,我的研究是沿着这样的思路。我们研究的是人的情感,以及通过触觉传感器理解人,这个过程当中我们学习如何适应环境、改变身体以及其它情况,这是人进行复杂操作最基本的行为,机器上也是这样,尤其是对医学机器人和手术机器人,这是我们研究的最大范围。图中是我们的“乌鸦系统”,研究的焦点是想开发一个软件,能够提供给外科医生各种各样的信息或者显微镜信息,帮助他们理解病人的情况,并且长期下来要让自己的能力增强。
Jens Kober:
我们可以看到一分钟以内就可以训练人工智能捕获这个小球,所以我们做的东西看起来不是非常复杂,想用一些简单的方式教机器来做这些看似简单的工作。
Alois C.Knoll:
你们的研究会以何种方式影响到我们的生活?刚才我们听到医学机器人毫无疑问会影响每个人的生活,我们也不希望每个人得病,此外还有自动驾驶汽车和协作机器人。
Jens Kober:
就像刚才王博士说的,每个环境当中都有不同的机器人,如果我们想把工厂的机器人拿出来放到生活里面,或者是非常小规模的生产也要部署机器人,比如农业机器人,或者改变它们的工作,很必要的一点是让每个人都具备教机器人做工作的能力,这样可以避免非常昂贵的机器人专家重新进行编程,所以我感兴趣的就是教机器人新的东西,并且这种培训方法每个人都要能够学会。
Alois C.Knoll:
您的意思是未来我可以和机器人对话吗?
Jens Kober:
就是你要给机器做一遍,机器会看着你,然后会学你的动作。当然,我觉得应该是一种综合的方式,取决于你想让机器人学会什么。
Alois C.Knoll:
所以未来我会有一个机器人伙伴,天天看着我的动作,隐私的问题您觉得大家会不在意吗?
Jens Kober:
这也确实是永远都很难回答的问题,如果有一个中心系统,机器人能够和中心系统往返信息的话肯定是有优势的,但是也有安全和隐私的考量。完美的世界会让机器人学习新的东西,就像小孩一样几天就学会了,取决于具体要做什么以及个人的倾向,比如你经常去左边还是经常去右边。
Alois C.Knoll:
Ilana觉得呢?未来外科医生会被替代掉吗?
Ilana Nisky:
肯定不会,未来很多东西会自动化,机器人可以帮人做一些手术,这种灵感是本能性的,你们以为我希望人类被替代掉吗?肯定是不希望的,医学院做出这么多年训练之后才能做出决策,而在外科手术做决策需要真正在那里操作,但是机器在移动性和精确度方面有自己的优势。
Alois C.Knoll:
二十年前我们见到了达芬奇机器人,也取得了巨大的成功,现在有越来越多的相关技术,会不会在未来几年发生什么革命?还是说会是循序渐进的发展?医生肯定是会保守一些,您觉得发展趋势会是怎样的?
Ilana Nisky:
这种预测是很难去做的,而且年轻人的有生之年还是很长的,到时候可以看到自己预测的未来。我认为的确会有进步,未来还要通过这种进步进入市场。当然,手术机器人是有一些进步,有些新的参与者进入,手术机器人是非常令人激动的领域,现在有些欧洲系统也在中国部署,非常令人赞叹。今天的展览当中我们看到了很好的手术机器人,Google也在做相关的工作,但是从科学的角度来说要做的改善还有很多,就是我们如何了解和学习手术的过程,就像科学的进步一样。
王志东:
最近三十年工业机器人有了很多好的进展,比如制造业领域,包括之前说过的手术机器人正在帮助我们外科大夫做精准微创手术,但是从某种角度来说这是某种人类高性能的工具,我们是否真的认为机器人只是自己家里的一个工具?可能在问天气的时候对它的期望更高,机器人应该不只是一种工具,如何让机器人与人类进行交互,不仅是告诉机器人去做什么,或者让机器人自己运作,或者没有按照你的要求去做,这是我们面对的最大挑战。我们需要的是同辈的交流,多数学习都是希望带来更加优化的表现,基于科学标准的优化,未来会有更多云的学习,去做个性化和人的交互,这会改变社会服务机器人的发展,也是一个新的趋势。
张宏:
多数机器人是在户外,加拿大有很大的国土,人口却没有那么多,因此我们要考虑到安全问题,短片上大家可以看到都是户外机器人,但是回到这个问题本身,我们是做什么工作的?我们的工作会影响到每个人的生活,如何改善自主驾驶的质量?无人驾驶是多数人都很喜欢的,我们也不愿意在开车的时候遇到交通拥堵,我在北京环路开车可能需要一个小时四十分钟,也是很让我讨厌的经历,但是如果能坐在车上休息一下,喝杯啤酒,交通体验会非常令人愉快,可能也会影响到人们的生活,如果技术是安全的话,但有了共享车辆就会解决这一问题。我们最核心的研究就是本地化,从A点到B点,但是在展馆环境当中我们还是希望有机器人的帮手把我们从A点带到B点。今天对话结束以后我们希望找到最近能够打车的地方,如果有一个机器助手能够带我到某个点来打车的话就是非常好的,因此这种定位是非常重要的。
Alois C.Knoll:
你们做的这些工作都有巨大的市场,能不能更准确地来讲一讲,哪些方面有真正的利润?你们的研究能够带来多大的产值?
张宏:
我是学界人士,所以不太擅长分析商业化的机会在哪里,包括移动机器人和自主驾驶的机器人,无论是协助驾驶还是自主驾驶都是未来的趋势,自主导航也是很常用的,比如在医院或者在街道都可以使用。目前这些地区都是技术不够实用、不够可靠,所以有巨大的潜力,要是真正实现的话需要可靠的技术,到底会在什么情况下使用?比如亚马逊、阿里巴巴在物流方面使用无人机。
王志东:
我也同意张教授的看法,作为学界人士很难预测市值和影响,但是无人驾驶是有很大潜力的。十四年前索尼公司创造出了IBOL,但是后来发现无法进一步扩大,因此取消了这样的项目,整个团队也解散了。今年索尼重新启动了这个项目,还是有资金的,但这不是一个大趋势,所有IBOL的狗产出之后马上就售謦了。软银正在投资可以和人沟通交流的机器人,所以这也是一种趋势,包括和人类声音的交互,没电的时候机器人就睡着了,不过还是可以和人类进行沟通。我们是有很大潜力,但还是有些挑战需要克服,比如操作自然环境下的物体,可以看一看其他人在做什么,如果两种技术能够突破的话,应用到真实的产品之中,下一代的索尼和软银肯定会有真正的社会服务机器人进入千家万户。之前也有类似的机器人产品,但是还不够,因为这只是基本的交互,需要有更深度的和人类语言的交互。
Alois C.Knoll:
达芬奇的市值是非常高的,可能是所有传统机器人公司总的市值了,医疗机器人市场是不是有很大的潜力?
Ilana Nisky:
我无法预测市值的数字,还是讲一讲运力吧。外科机器人手术达到100万,应该是数十亿台,所以未来会有更多的机器人参与手术,但是还有很多专门的手术过程可以由机器人来做,市场潜力也非常大,不仅仅是能够赚的钱,还会省下很多钱。如果这些系统能够更加定制化,满足手术大夫的需求和运动,也有很多不同的专长,那么突然就不只需要最先进、最精湛、最训练有素的专家来做复杂的手术,而是刚毕业的医学院学生培训一年就可以做非常复杂的手术,而且很成功,这是巨大的进步,能够省政府的钱,省医疗服务提供商的钱。
Jens Kober:
这些技术变成产品并不难,现在很多协作机器人已经上市,能够做的事情还是比较少的,可以是别人来教机器人新的动作,半导体行业肯定是有很大的市场。当前我们看到巨大的趋势,就是个性化产品、私人定制的药物,我自己的研究也是这个方向,希望在未来能够很好地变成实际的产品。
Alois C.Knoll:
确实有隐私的问题,但仅仅是机器人面临这样的挑战吗?比如NEC二十年前推出的E50可以在家里来回跑来跑去播放音乐,在那之后有没有什么进展?没有的话原因是什么?克服哪些障碍就可以进一步快速发展实现上市?因为在德国我们经常会抱怨本来能够很好地做研究,但是科技成果转化很难,这在中国也是一样,大家都说科研成果很好,但是无法上市。
张宏:
很有意思的话题,我不是这方面的专家,无法明确地指出创新的障碍。三年前我也在这里说过类似的话,这里有些道德伦理上的矛盾也会成为创新上的阻碍。伯克斯在八十年代就开发出了这样的矛盾理论,对机器或者对机器人容易的对人来说就难,对人容易的对机器就难。为什么会有这样的创新阻碍?这就是我们需要去研究的,我们对潜在的判断是从人的标准出发。系鞋带容易还是下棋容易?人肯定会觉得肯定是下棋更难,因为谁都会系鞋带,所以弄了一个棋赛电脑把人打败了就觉得电脑很厉害。这里就会出现创新的难点,科技是从想法到研发到市场需要正确判断难度,不是从人的角度,更多的是从机器的角度评价。
Alois C.Knoll:
有的时候可能我们会觉得很无聊,机器人应该比人做得更多一步,所以随着时间发展出来自己的能力就了不起,有些基本动作对机器人来说是比较难的。
Jens Kober:
中午我们也聊了一下,有些事情一开始看起来潜力太大了,然后人们就开始失望,我们的文章当中也有一些机器,最终没有付诸实践,有的时候机会不是很多,资金缺乏的时候最后就出现了破产。
Alois C.Knoll:
医学问题是非常复杂的,有些需要十年的认证才能变成新的产品,机器人做起来会不会容易一点?直接触及问题的实质?
Ilana Nisky:
每个医疗设备都需要认证,机器人技术也不会有任何例外,但是这肯定也是需要移除的阻碍,中国的一个医生如果要为以色列患者做手术,监管和立法特别复杂,到底适用中国法律还是适用以色列法律?医生要在本国执业还是要在以色列执业?常规的医疗器械市场当中没有这样的做法,不涉及机器人技术。我们一定要在研发的过程当中考虑到最终用户,也就是外科医生到底想要什么,开发出来的东西最后他们可能不想用,老一代的医生就愿意用自己的那些传统的笨办法,这可能也是创新的阻碍。
Alois C.Knoll:
个人认为这些对医生来说是尤其难的,因为他们的技巧用了一辈子,我们是对技术特别有热情,日常生活也更容易一些,其它方面会有优势。
Ilana Nisky:
因为医生特别关心病人,只要能够获得愈后的话都想尝试,一旦有了新的技术能够说服医生,这些对病人特别好的话他们就会使用。
Alois C.Knoll:
人们会不会担心自己失业或者被替代?
Ilana Nisky:
我觉得您说的是对的,一些外科手术医师负责一些非常复杂的术室,原来认为只有精英医师才能去做,新的技术出现了,很多术式能够被机器人胜任,他们的就业就会受到影响,但我觉得这是机会而不是阻碍。
王志东:
这是一个很复杂的问题,社会机器人、医学机器人或者自动驾驶安全是最重要的,除了先进的工具之外,机器人应该有专门的社会多功能。作为研究者,过去的二十年里我们看到的都是单功能最佳的表现,然后把这些推到市场。现在大多数的研究者做机器人的都要减少错误,所以不断地做优化,他们都认为一切存在唯一的答案,几千个机器人都要做优化,那么就要考虑多样性。Rumba上市之后很成功,因为不是挑战单一的指标,只是做到百分之八九十让人们满意就可以了。
Alois C.Knoll:
那么政府能做什么?应该采取哪些措施驱动创新?因为这是一个很有意思的想法。
张宏:
加拿大的人口是3400万,也就是两个北京的人口这么大,但还是很成功的。我能想到两个领域,竞争可以促进科技发展,政府机构、大学,政府资助项目和私营部门之间的竞争,应该有更公平的资源分配,老年和年轻人之间的竞争也更加公平。比如你我和旁边的年轻人士有更公平的竞争,因为在中国只要年长就会有更多的资源,别的地方可能也是这样,但中国尤其如此,我觉得这样不健康,因为这样剥夺了很多年轻人的资源,年轻人的资源是最适合创造的,也是非常具体的建议。资源和机会应该是基于能力,而不是基于资历。
Ilana Nisky:
我们以前也做过一些类似的培训,可能比较老套,就是学术象牙塔的风格,这是我们经常做的,要把资源分配给更年轻的研究者,五年前我成立了我的实验室,得到了非常慷慨的政府资助,这是一项科学基金,也是对我们帮助特别大的基金。之前我想过这个问题,考虑的是具体的机器人能够帮助实验室人员做什么,而不是政策方面,比如我想做外科手术机器人研究的话就要计算它的成本,如果想开发更小的东西就需要别的东西,不像是我有一个想法,编写一个软件,然后在家里地下室就可以做了。我们鼓励创新以及系统之外,可以在家里去做创新,也可以创造一些创客空间,这样就会有激光切割器、3D打印器或者有些可以选择的电机,这样就可以建造设备,然后尝试你的想法,不过资源还是很大的问题。
Jens Kober:
创新主要来自于基础研究,我不知道中国的资金体系是怎样的,欧洲更多的是要让产业进来,这样才能对接大的目标,但是拿到基础研究的资金很难了,这样不太好。
Alois C.Knoll:
在座的嘉宾很多都是年轻人,一定是对机器人非常感兴趣,否则的话不会参会,各位想给年轻人传达什么信息,因为他们都有巨大的潜力,也是很好的人力资源,请把机器人作为个人生活的未来机遇。
张宏:
很简单,不要随大流,要成为一个追梦者,如果对机器人感兴趣、有热情,那么就去做这项工作。
王志东:
内心要年轻,身体也要健康,而且需要把新的技术带到机器人学领域。我们总是觉得能够把很多新技术拿到机器人领域,这样的话能够使用最先进的科技。
Ilana Nisky:
机器人学是一个非常有意思的行业,我自己每天上班的时候都想和这些非常好的玩具一起游戏,所以要有这样的思维方式来做自己的工作。
Jens Kober:
实际上只要做到一个很好的平衡,机器人可能就是世界上最好的事情了。
Alois C.Knoll:
今天这个时代,从事机器人行业应该比过去我们那个年代容易很多了,所以你们完全可以把机器人作为你们的事业。
席宁:
下面有请清华大学医学院生物医学工程系教授高上凯带来主题演讲,题目是“脑-机接口的现状与未来”。
高上凯:
好像在神圣的机器人大会上谈到脑机接口有点跑题,但是真正了解脑机接口的现状和未来发展前景的话,或许可以从另外一个角度审视机器人和人工智能的研究方向以及未来的发展前景。
什么是脑机借口?Brain-Computer Interface是指大脑和外部世界建立的直接沟通渠道,换句话说就是直接解读大脑活动的信息,了解这个人的意图,然后把这个意图转化为相应的控制命令,实现对外部设备的控制。脑机接口可以看作一个双向的闭环控制系统,一方面大脑要发出指令实现对外部设备的控制,另一方面外部设备也要不断地给大脑发送各种各样的反馈信息,让大脑及时调整控制策略,维持整个系统的稳定性。
实现一个脑机接口最最基本、最最关键的点就是怎样监测大脑活动的信息,过去的一二十年当中,几乎所有可以用来监测大脑活动的技术手段和方法都已经一用在脑机借口的研究当中,包括无创的方法,比如脑电脑磁,或者把电机直接植入颅内。按照广泛应用来说,无创肯定是首选的,所以我今天重点介绍无创基于头皮脑电系统。
过去二十年来,许许多多的国家实验室都在投入脑机接口研究,实现多种方案和应用模式。为了让大家能够在很短的时间里大致了解脑机接口发展的现状,我把各式各样的应用归类为三个方面,也就是Interface、Interaction和Intelligence。双方相互作用的目的是想要改变对方的状态,脑机接口系统当中脑是生物学意义的智能系统,机是物理世界人工智能系统,整合在一起就构成了协同的智能系统。
首先是Interface,按照字面来看,就是把两个设备、两个概念或者两个系统联系起来,实现现在所说的互联互通。脑和机连通以后能够干什么呢?首先就是控制,脑机接口研发开始的阶段一个很主要的动因就是给那些运动障碍的残疾人提供外部交流的机会,所以很多实验室都研发了对轮椅控制的系统。现在还有开发对假肢和外骨骼的控制,2014年巴西世界杯上有一个下肢瘫痪的残疾人用脑电信号把第一个球踢出去了,现在这样的控制系统即使是用无创的技术也可以实现连续的控制。
互联互通以后双方就可以实现通讯,两年之前有一个冰桶挑战,目的就是为ALS疾病筹措研究经费,著名物理学家霍金就是得了这样的病,到了后期全身没有一个地方会动,完全没有办法表达自己的意愿,所以脑机接口就成了和外界交流的唯一通道。这里展示的是不久之前中央电视台在《挑战不可能》节目当中展示的由清华大学开发的一个大字输入系统,病人当场就在演播大厅连续输入两个完整的句子,现在这套系统通讯速率已经达到了相当高的水平。
除了脑和机的通讯之外,也有人关注脑和脑的直接通讯。这是美国华盛顿大学开发的两个人之间的通讯,了解意图以后发送到对方,一方是接收命令的,通过颅内刺激把信号直接传递到大脑,现在发展到了可以连接到更多的人,把更多脑和脑之间的通讯联系起来,协调解决一个共同关心的问题。
关于Interaction,强调的就是脑和机之间的相互作用,作用的目的就是希望改变对方的状态。我们脑机系统当中一边是脑一边是机,脑要改变机的状态,控制外部设备实现某种动作,实际上机也在设法改变脑的状态,就是基于观察到的大脑皮层的可塑性,只要给予一定的信息或者进行一定的训练就可以改变大脑皮层神经网络的连接方式,将来可以减缓疾病的伤害,或者对健康人提升人的认知能力。
脑机接口在康复应用领域还是很重要的,中风病人现在是一个很常见的疾病,发生以后经常会引起偏瘫,偏瘫是管运动的皮层受到的损伤,现在医院做的大概就是可以用康复训练的机器人帮助活动腿脚,但是这样做的效果是很差的,因为明明是坏在脑子里面,动胳膊腿效果不会太好,所以现在基于脑机接口人家开发了另外一种主动的训练方式,就是让中风病人想像瘫痪肢体的运动,想像的时候脑电是有反应的,我们通过脑电系统测量脑电反应,一旦发现真的是想动的时候再去启动训练的机器人,这样主动的训练方式被证明是非常有效的。
除了残疾人之外,健康人群基于神经反馈也是很重要的。一个射击新手上来以后要过渡到优秀选手需要不断反复学习和训练,如果训练是盲目的话效果就很差。现在可以做到的是了解优秀选手执行射击任务的时候脑状态是怎样的,研究下来表明,优秀选手射击的时候脑活动的水平是比较低的,阿尔法节律是比较高的,要把脑活动及时在线反馈给射手,让他了解自己距离优秀射手还有多大差距,这样不断调整自己的脑状态,使自己尽快达到优秀射手的水平。
关于Intelligence,脑机协同智能实际上包含了两种系统:一种是生物学意义上的智能系统,另一种是物理机层面上的智能系统。大家知道现在人工智能系统的水平相比人的智能系统差得很远很远,在这种情况下人工智能的研究方向可以分为两条路来走:一条就是继续研究,做出一个特别聪明的机器人,另一条就是既然人比我聪明,干脆把人邀请进来一起来干,这样可以达到非常完美的效果。
协同智能的概念在脑机接口研究当中很早就出现了,因为两个系统整合不是简单的对其,很早阶段人们就适应这是一种相互对接,因为每一方的自适应系统要适应对方的变化,然后不断调整自己的控制策略,最后使整个系统达到稳定的状态。这个平台上面我们是从生物质能系统和人工智能系统共同构成一个协同智能系统,目前很多场合都用Human AI概念,脑机系统要是和AI有关系的话就是一个有人参与的AI,不是纯粹意义上的AI。
这里特别应用美国国家发展人工智能的战略报告,人工智能的研究未必一定要替代人,应该是两边合作起来构成Human AI,这种情况下往往可以把事情做得很好。
目标检测是大家经常碰到的问题,人工智能在人脸识别方面做得是非常好的,已经在很多情况下得到了广泛的应用,但是一般意义来讲,目标识别是一个非常复杂的问题。一方面目标是各种各样的,另一方面所处的周围环境可能是很复杂的,可能一个恐怖分子藏在一个草对立面。遇到这种复杂情况,人工视觉就会遇到很大的麻烦,要是人识别这个目标,不管尺度有什么变化、光照有什么变化、姿态有什么变化,我人都不在乎,能够很快地把这个目标识别出来。真的有人设计了这样一套系统,就是把这个图像一桢一桢很快地展现出来,但如果这个人专注于寻找某个目标,我们监测脑活动的信号,一旦出现正向波我就知道他应该关注的目标。
哥伦比亚大学设计了一套系统,就是把人的视觉和机器的视觉整合到一个平台,实际上二者谁也替代不了谁,人虽然对目标识别比较准确,但是不能处理千千万万的图像,那样就累坏了,人工智能可以有本事在很快的时间内处理大量的数据,然后对数据集的图像打标记,哪个图像有目标出现,这样的合作系统放在一起来干,经过一段时间证明检测效率可以提升十倍左右。
目前有研究报告说全世界每年有100万人由于各种原因需要做截肢手术,然后马上遇到的问题就是要安装假肢,做得非常灵巧,自由度也非常高,问题就是把假肢装到这个人身上以后谁来控制?这样下来控制效果肯定不会太好,那么谁来控制最好?肯定是我们的大脑,由于大脑的控制才能完成最精细的动作,那么断臂的话脑袋还好使吗?当然是好的,从上到下,一直到手术残端都是好的。
2002年美国有两个医生发明了一个手术,就是把断的手臂移植到胸点几,然后完全机电新九进行对假手的控制,断臂以前所有对胳膊控制的方法和策略都在脑子里面。现在接受这种手术的患者已经很多了,效果非常明显,哪怕两个胳膊都没有也可以完成非常精细的动作,有人说将来这种手术可能会作为临床常规。
前面我们分为三个部分介绍了脑机接口发展的现状,就是Interface、Interaction和Intelligence,这也使得应用从专注于残疾人辅助器械的角度扩展到对健康人群更广泛的应用。尽管脑机接口取得了很多成绩,但是目前为止基本还是处在实验室展示的水平,距离真正商业化的应用还有很长的路要走。
大家可能会问,往下发展到底会遇到什么样的挑战和机会?说起脑机接口面临的挑战是非常多的,基础研究的角度来看和脑科学很多有关的事情还没有搞定,工程技术的角度来看怎么解读信号也还有很多工作,推广应用的胶固涉及到复杂伦理的问题,这些都会成为脑机接口发展遇到的挑战。
由于时间关系,我们重点来讲工业领域。要想准确解读脑机的话数据需要可靠,如果头皮贴一个电极,测量的是大脑皮层千千万万神经元,透过颅骨和皮层获得电极,现在的问题里是直接和颅内神经元对接,但颅内神经元是千千万万个,要是真对接的话困难重重,将来哪怕到几万个电极,这种天文数字的神经元也只是九牛一毛。
这么多的电机,怎么放到大脑里面?要是开颅放进去的话肯定不干,所以怎么研究对人创伤非常少的非外科手术,就是对人的颅脑结构没有损伤的技术,能够把这个电机顺进去?如果颅内真的放了千千万万的传感器,采集信号怎么往外传?最早的时候拿几根线就可以,如果是千千万万的话拿线传是不可能的,所以需要开发高通两的数据传输系统,最后要是真的获得海量数据,怎么处理这些数据?现在一般的计算机可能对付不了所谓的超算功能。
两个月前马斯克建了一个平台,植入颅内电机达到3000多个,这在以前是没有的,专门给自己做了一个机器人,帮助把这个电机植入颅内,创伤可以做得非常小,因为完全是自主开发的机器人设备。进去以后这些通道的神经元信息怎么拿出来?自己开发了定制芯片,采集的数据数字化,最后当然还有神经信号的分析,这种平台相比现有的平台真的是往前提高了一大步。没过两个礼拜Facebook也发声了,主要是从软件脑信号解码来做,就是人在对话过程当中有问有答的语音信号解码,如果将来这个事情真的做成功的话,可以通过这种信号直接解码出来这个人想做什么,不用自己开口我就知道你想说什么。
实际上两年前Facebook就发布了一个雄心勃勃的计划,实现一分钟打一百个字,要比手机输入的速度还快好几倍,但是到现在为止这个目标还要看今后的进步。最近有人提出一个新的理念,也是叫做BCI,但不是Brain Computer Interface,而是Brain Cloud Interface,采集信息以后再通过纳米机器人传出来。由于这个时候采集的数据量是非常大的,所以应该放在云端处理,于是发明另外一个BCI,按照自己在文章的说法,今后的几十年我们一定能够实现这样的系统,就是实现大脑和云端的完全对接。
这是发表在半个世纪以前的1973年,美国UCLA的一位学者在实验室里搭建了脑机接口系统,当时的技术条件搭建起来是非常困难的,因为计算机、脑焊机动不动就是几大柜子,当时首次提出Brain Cloud Interface,后续还有更多的轨道。现在一批关键技术突破以后发表了各种各样的研究报告,就像指数一样快速增长,特别值得我们关注的就是到了今年,也就是过去的两三个月,这些所谓的黑科技公司不断发声,公布自己在脑机借口方面研究的成果,好像有点预示脑机接口在不久的将来会迎来一个新的发展阶段。
最后给大家看一看各种各样的奇思妙想:第一行基本上是和医学有关的应用,包括假肢控制、康复训练、打字输入,第二行基本上和国防安全国防目标,实际上这种目标的识别真的是很有用的事情,因为在外面作战很关心周围到底有没有会威胁我的目标,士兵通过脑机接口寻找目标,这是很值得研究的事情,现在有人觉得身份识别有很大的问题,如果在键盘上打字很可能被旁边的人偷看走了,要是指纹的话只要对着手指头照一个相就可以复杂出来,什么东西偷不走呢?就是脑子里的想法,所以将来可能会从Password变成Passthought,空间站人在失重的情况下很难去按键,所以脑机接口可以是一个备选的方案。我们的系统已经搭载到了“天宫二号”测试,将来可能会有具体用途。
图中是一堆人戴着脑电波在看电视屏幕,其实是广告商测试广告效果到底好不好,这些观众一旦看见自己感兴趣的东西脑电就会产生兴奋和活动,通过检测座位上的这些人的脑电信号就可以客观评价这个广告哪一点是最激动人心,哪一点做得还不行。超市里面各种各样的东西摆的合适不合适,能不能引起兴趣也要通过脑接口客观评价。游戏也是很多人想赚钱的项目,因为游戏不光是好玩,如果你的大脑想参加游戏的话肯定是对大脑有训练和呵护,不知道是不是只要游戏做得合适也有一定的健脑功能。
席宁:
下面有请荷兰代尔夫特理工大学副教授Jens Kober带来主题报告,题目是“学习交互以及从交互中学习”。
Jens Kober:
谢谢主办方邀请我参加世界机器人大会并发言,我要讲的是通过学习进行交互,并且在交互里学习。
视频当中是当今最先进的人形机器人,可以做非常令人赞叹的事情,虽然还是很保密的,但肯定有些机器人的编程人员好几个月忙着做这种编程,还是有些小的变动造成问题出现。我们并没有听过人工智能应用在机器人领域取得巨大的成就,实际上这些案例还是有差异的,所有左边的这些更多的是通过感知去看去听,也是和高层推理有关,但是和身体关系不大,人工智能做的是这些相关的。
人工智能机器学习的具体挑战是什么?首先是保证安全性,我们不想破坏周围的环境或者伤害人类,而是希望能够快速学习,因为数据是很昂贵的,要是想在真正的机器人来做研究的话,需要收集数据犯错,这会花很长时间,除非在Google可以有很多机器人不分昼夜地工作,这很令人赞叹,但是对其他人来说不太务实。
怎样避免这种问题?昨天几位嘉宾都有讲到这一点,就是把之前的模型和控制的知识加入进来加速这样的过程。我们不希望很多没有明确的参照数,同时也希望能够实时工作,我们需要适合不同领域的做法。
这是一个博士生拿着深度强化学习的做法运用在机器人身上,任务是去接近绿点,左边是非一传统的做法,刚开始看起来几乎是差不多,继续学习的话可以看到教科书式的做法失败了,因为机器人忘记一开始学的是什么,这是灾难性的遗忘,右边是把额外的信息提供给它,预防这种灾难性的遗忘。
具体的研究领域就是运动技能,什么是运动技能?Sami Haddadin之前也做了介绍,这是一种简单的运动,在打网球的时候需要往前往后或者跳舞,也是非常复杂的行为基础,需要改变简单的行为,然后实现复杂的运动,所以需要学习新的运动,或者是微调一些运动。
实现这些目标有些相辅相成的做法,模仿式学习展示技能,然后学生去做模仿,这些对简单任务来说是非常好的,但是有些做法还是需要去做练习和培训,也就是所谓的强化学习。哪些任务对机器人来说比较难?之前我看到一个视频,左右摇摆是有很复杂的动力学,环境当中也会有挑战。不确定性和变化可能会很难建模,如果想和人类进行交互的话,机器人就更难做了,因为人类更不可预测,所以要学习如何进行交互。
我们看一看人类是怎样学习的,因为经常会有老师、教练和学生之间的交流,刚开始有老师展示,学习过程当中也会反馈怎么改进,但是这个过程我们也在机器人学习当中做到了,应该把这种间歇性的反馈提供给机器人,很快地加快学习机器人这种复杂的运动,并且对人类来说也是很重要的。
怎样学习交互呢?这是小组讨论当中我的展示的图片,我的表妹当时十岁,正在学习一个任务,花了三十五次才把球放在杯子里面,机械臂的关节速度是这样的,运动命令造成状态的变化,每次变化会有一个回馈的信号,继续这样做直到达到T平方的数量。目标不一定是实现每次回馈的最大值,但是希望实现总体的最大值,所以如果不断地有状态和运动的持续变化,那么就会造成维度非常高、非常难学习,我们所做的就是从低维度表现某种参数标准。
强化学习的方法有很多,有些我们称之为政策研究,有些我们称之为加权回报,之前很多不同的东西都可以结合进来。横轴是状态,竖轴是你要采取的行动,这里我们来看一个好的行动和一个差的行动,需要关注好的例子,不去模仿差的例子,到了最后看起来的情况是这样。
这是把球扔进杯子的游戏,机器人第一次错过了,大概是差11米,第二次更近一点了,但是掉到了另外一个方向,两个案例当中从零到一的回馈是非常小的,如果做一个平均就可以更接近目标了,第三次可以有更多的考量,效果就会变得更好,第四次的时候就可以达到目标,不过事实上可能需要更多的数量。
如何帮助机器人去做这样的训练?就是机器自己模仿会模仿这个东西,第一次还是做不到,只差15厘米,第二次更多了,做了25次尝试以后就比刚才更近了,45次以后终于碰到了杯子,但是会弹出来,做了100次以后就可以用非常稳定的方式把小球甩进杯子。
提醒一下,孩子要练30次,机器人要练100次,这个结果已经很不错了,否则常规的方法可能要训练机器几十万次才行。
这里我们想拿一杯水来给机器人展示,可能机器人不能那么直接地学会,如果位移是指搬桌子的话就完全没有意义了,所以需要教给机器如何模仿我们的动作,这也是我们的研究,就是展示展示再展示,直到让机器做这样的总结。
我们可以用一种合并性的方法进行处理,包括用力和位置,以及相互的作用力和环境等等,使用同样的东西、同样的力做出不一样的展示。当然,有的时候也会使用不同的东西,看一看位置和力有没有相关的变化。
这里轻轻往上移了一下,现在灯泡就拧下来了,这里一共教了机器10次,也有很多单体动作,不过要有顺序才行。这里有预先定义的动作,每个顺序、每个方向都是预设的,每一步会进行不同位置的概括总结和学习,什么时候拧得快,什么时候旋转,现在灯泡就松了,之前往上稍微拽一下才能拧下来,否则不往上拽一下的话一直拧也拧不下来。
刚才说过,和环境的互动是一方面,和人的互动是另一方面,因为人是难以预测的,有的时候人会做一些很奇怪的事情,比如要保证人和机器尤其是人的安全,机器会探测人是在哪里施加的力。
这是机器获得的信息,右边的是真实的情况,进行了再现和组织,一个人的老师会给机器反馈,比如有人坐在键盘前告诉机器人下一步怎么去做,所以经过人的现场纠正,机器会很快地学会适应,然后学会怎么清理这些东西。
我们怎么进行强化学习或者从试错经验当中进行学习?探索的意思是机器人一定会尝试新的东西、新的策略,找出合适的策略是什么,我们一会儿会给大家看一个例子,这个例子是人机互动进行纠正以及反馈,然后把这个做成建模,加强机器的学习。
刚才这个人坐在前面,给了机器人一些建议和纠正,这样机器人就能够更好地试错,做了15次以后机器人可以很好地把球甩进杯子,20次以后就非常稳健了,这是一部电影在教机器人拳击手打拳击。
总结一下,这些都是机器人的小数据,也是机器人学习的限制,我们要知道怎么把仅有的数据变成真实的能力,不是练习的时候有多安全,而是练习应用起来安全性能不能保证。
我觉得最大的挑战是不确定性和变化性,这是贯穿人和机器互动的所有环节,具体到真实的人机接触会有更多的不确定性和变化,互动性的机器技能学习也要变得更加高效、更加直觉性,这样才能进入我们的日常生活,每一个人都可以教机器人去做我们想让机器人做的事情。
我觉得最大的问题是如何表达,把人的反馈给到机器人。这里是一些案例,很多都是游戏或者日常常见的东西,但在工业领域有很大的潜力,不一定要和人并肩工作,有些小规模的生产如果能教机器去做定制动作的话会很容易,比如农业、老年人护理、厨房或者餐厅的工作。
席宁:
最后有请日本Preferred Networks股份有限公司软件工程师Jun HATORI带来主题报告,题目是“每个人的机器人:前沿深度学习和机器人技术在工业和个人机器人的应用”。
Jun HATORI:
大家下午好,我来自Preferred Networks,下面介绍一下我们在机器人深度应用方面的成果。
Preferred Networks是一家位于东京的公司,任务是让深度学习进入不同的领域为我们所用,涵盖行业包括交通、医学、健康、运动、娱乐、个人护理以及其它方面。
我们都知道机器人的潜力十分巨大,机器人已经被用在很多范围和生活领域。大家可以看一看潜在的农业、制造、建造和物流等等,主要机器人只是在制造领域使用,正在进入物流领域,这些范围扩展依然没有发生。为什么会这样?机器人有很多技术挑战还没有解决,每个人每个地方都可以使用,实际上就是我们公司的一个愿景,我们希望能够把这些带给人的所有生活空间,也是我们希望最后能够实现的目标。
今天演讲的过程当中也会举一些工业应用的例子,分析一下我们已经走了多远,剩下的挑战是什么。
我们来看行业和个人,聚焦在消费机器人的话,一个机器人最多几万美金,现在我们做的研究不太相同,工业环境可以设定一个固定生产线,也有固定设备,结构化的程度比较高,但是谈到个人和消费者的家用机器人的话环境就更动态、更非结构化、更不可预测。
我们的用户包括哪些?一般来说都是经过训练的专家,个人机器人的用户是非专家,也就是普通的消费者。为了满足这些差异和需求,我们必须取得核心技术的突破,包括硬件操作、人机交互、计算机视觉等等,今天更多的是要谈计算机视觉以及人机交互、UIUX等等,因为这些软性的领域是我们在科研方面取得成功的领域。
这些例子展示的是真实环境下机器人应该怎样工作,上面的可能是一个企业、酒店或者酒吧,灯光、照明、装修、人员的行为数量是很多的,非常复杂,也很动态。
这是我们正在做的机器人系统,也是比较简单化的机器人,家庭当中可能会有好几百个设备,机器人要在比较乱的家庭工作的话,能够认识所有的物品,并且能够操作这些物品。
我们需要概括不同的环境和任务,而且能够适应看不到的环境和看不到的物体,物体的检测至少能够支持数千种物品。消费者可能会使用机器人,UI和人机接口必须非常简单直观,我们会为专家专门设计,也会设计出语言和视觉的交流。
这里介绍我们工业的场景,就是抓取和放置机器人,然后是语言的接口,最后就是结合了不同技术的机器人。工业机器人包括插入和抓取,2016年我们参与了亚马逊抓取大赛,就是基于机器人视觉抓取不同的东西,采用的是最新的计算机视觉技术,找到这个点然后同时抓取,根据具体的物体形状。
神经网络采用自己的做法,效果也非常好,所以比赛当中达到了非常高的准确度,赛事取得成功以后我们开始探讨其它用途,比如计算机视觉能够在更复杂的场景下使用,物流机器人可以在制造业使用,我们设置了深度神经学系统,可以设置部件的抓取,不需要一些培训的项目,这些只是随机抓取,经过几千次的尝试以后就知道抓哪个点是比较合适的,成功率达到90%,基本上可以和人类专家比肩。
我们进一步把这种基于神经网络的抓取延伸到更多比较广泛的抓取,这是我们的插入抓取系统,可以很快地抓取看到的已知的和未知的物品。系统使用的是预先培训的模型,结合了很多不同的物品,形状、颜色、质地都不一样,到了最后不需要再额外地调整或者培训,我们能够很成功地操作这样的抓取系统,而且是在各种不同的新的环境下去做,所以物流领域是在箱子上面做工作,超市是生鲜食品,便利店和仓储主要是其它的物品。
这种神经网络支持的抓取能够很好地进行新的数据集的推广和概括,可以看到神经网络归纳推广能力非常强大,之前我也说过用户接口,为了让消费者以直观的方法使用机器人,必须要有用户友好界面,因此语言是我们一个很大的研究领域,我们的研究工作是通过语言指导,进行互动式的抓取。
我们想看一看机器人系统是否能够解读一个人的语言,能不能把棕色的、有毛的东西移动一下,描述也是比较模糊,响应非常准确,要把语言和物品进行匹配,不过我们可以给一个具体的名字,比如纸巾盒,棕色的、有毛的东西,能不能把蓝白色的盒子移动到右边?这个作业还是完成了。
大家可以看到有蓝色和绿色的区块,有些是在右边,主要做的是通过语言的指令,是做实时的匹配和辐射,说的东西和看到的东西做一个匹配,这种神经网络的目的就是可以进行很好的推而广之,因为可以做语言和物品的匹配。目前我们实现了90%的准确度,也就是普通的用户指令模糊的情况下也能够达到这样的水平,即使有些物品不太清楚,但准确率货币能够达到将近70%。
接下来介绍一下我们最新的,也是最具挑战的项目,就是家用清理机器人。我们是在日本东京的一个展会上展示这款产品,也希望能够在中国展示,但是却没有成功。这里播放几个视频,给大家看一看我们所做的工作。
我们设置了客厅这样的场景,也有很多不同的物品,大家可以在家里找到这些物品,也就是丰田的机器人自主找到物品、抓取物品,并且放回原位,完全基于物品分类去做,比如玩具都是放在玩具箱子里面。
有些物品具体摆放的位置,机器人可以预测正确的姿态,这样能够做出准确的调整,放在书架上面要轻微地去做,我们希望能够把所有真实使用的功能都放在机器人上面,这样的话就会有很严谨的、商业化的可能。
具体讲一讲这个系统,我们使用的是HSR,包括头部的摄像头RGBD,也有使用上面的四个辅助的摄像头,希望能够加快展示的速度,使用的是自己内部的CNN,能够提高准确度,仅次于Google AI的准确度。
数据收集是另外一个关键的因素,因为没有数据就不可能有稳健精确的系统,因此我们建立了这样的办公室当中的起居室,里面有1000个物品,所以经常会随意地把它们扔在桌子上和地上,我们会把毯子的位置和灯光随机改变,通过这种随机化我们可以收集各种各样变化的数据,这样可以帮助我们更好地调整我们的系统。
作为结果而言,评估、展示以及设备的精确度达到0.90IOU,机器人系统每分钟可以清理两个物品,抓取成功率大约90%,其实这个成功率是非常了不起的,因为之前我们没有把要抓取的东西暴露给我们的机器人,他们会尝试多个不同的角度。有的时候我们会发现系统成功率很高,能够非常快地把东西清理干净,所有布局都是可以适应的,而且可以进行识别,感觉并没有被灯光所影响得太严重。
目前还是有些问题在困扰着我们,但是深度神经系统以及其它的设置能够很快地解决剩余的错误,建成更加稳健的系统。
现在来讲一讲人机接口,刚才说过,我们希望让这些设备商用,这也是我们要解决的另外一个角度。用户给到机器一个指令,同时需要机器进行物体的定位,然后需要对反馈的检查,并且通过APP进行监控。
这里给大家展示一下我们是怎么做的,我们用日语对机器人进行动画指令,让机器人知道怎么进行东西的整理,插线板应该放在别的地方,不应该放在这里,人用手指的动作告诉机器人把插线板放在哪里,就是用身体语言加上口头语言告诉机器,这些其实都是很容易被消费者应用起来的方法。
这个例子当中人在问机器人一些位置,所以说机器人在打扫的时候会记录下所有东西的位置和名字,这样你问它的时候它就会告诉你东西在哪里,可以用声音语言告诉机器人我要找的东西在哪里,机器人会告诉你或者直接拿给你。
我们还有另外一个iPad APP,这样可以知道机器人下一步要干什么,以及机器人现在在干什么。
这是机器人正在打扫的视频,可以连续工作四天,不会出现任何严重错误。因为我们想在未来做商用,所以操作是很重要的一点,也是我们的工程师在持续考虑的。
刚才给大家做了一个简单的介绍,未来的真实应用当中还有哪些挑战呢?我们总结一下。作为Demo的情景,我们把东西减少到了几百个,但真实情况当中东西是无限的,几千几万都有可能。我们仍然对没有见过的情况做了归纳总结,比如要把地毯换了的话还有没有用呢?两个长得不一样的地毯能不能做同质化的归纳?单机的计算机系统应该进行外部的感测,安装起来也应该更加容易,同时不应该有任何的安全上的担忧。
今天和大家介绍了三个项目:抓取、机器语言和家务,这些是我们应用的主要领域。要把机器带到人的生活环境和家里,首先应该提高机器人的视觉能力和人机接口,我们认为这不光是对个人机器人很重要,即使是工业机器人也应该是这样,越来越成熟就应该越来越改善机器人的HRI和计算机视觉功能。刚才给大家介绍的清洁机器人对打扫这样基本的家务已经有结果了,我们还有一些没能解决的挑战,但是家庭机器人应用肯定要比很多人思考的来到的更早,这也是我们的期望。
感谢大家的聆听,如果大家对我们的项目感兴趣,我们的网站是preferred.jp,欢迎大家与我们联系。
这场全球机器人界巅峰对决,只想感叹一句:厉害了!
2019世界机器人大会——第五阶段:人工智能与融合
与创新极客共成长——极客公园创新大会十周年「极致成长论坛」成功举办
共创共享 共商共赢 2022世界机器人大会将于8月18日至21日举办
扫地机器人迎来风口,其“避障指南”EAI科技激光雷达备受关注
生物机器人以及生物学、科学和工学之间前沿